دسته بندی متون یا طبقه بندی (classifying)

عضو شوید

:: فراموشی رمز عبور؟

عضویت سریع

به وب سایت من خوش امدید

براي اطلاع از آپيدت شدن وبلاگ در خبرنامه وبلاگ عضو شويد تا جديدترين مطالب به ايميل شما ارسال شود

اسپرت اریو

اپشن اریو z300

کادو تولد

ارسال لینک

مطلب پروژه []

آمار مطالب

:: کل مطالب : 495
:: کل نظرات : 0

آمار کاربران

:: افراد آنلاین : 1
:: تعداد اعضا : 1

کاربران آنلاین

آمار بازدید

:: بازدید امروز : 108
:: باردید دیروز : 0
:: بازدید هفته : 127
:: بازدید ماه : 918
:: بازدید سال : 3733
:: بازدید کلی : 121023

دسته بندی متون یا طبقه بندی (classifying)

نوشته شده توسط : مطلب پروژه

عبارتست از تشخیص موضوع اصلی یک سند.
* هدف از طبقه بندی، ایجاد امکان استفاده از مدلی بر ای پیش بینی کلاسی از اشیا است که با عنوان ناشناخته برچسب خورده است
* طبقه بندی یک فرایند ۲ مرحله ای است:
الف- ساخت مدل
ب- استفاده از مدل

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

طبقه بندی در مواردی مانند: تعیین اعتبار، مشخص نمودن گروه هایی از مشتری ها که خصوصیات و علایق مشترکی دارند، تشخیص میزان تاثیر داروها و موثر بودن درمان بکار می رود. در ادامه طبقه بندی و برخی روش ها و الگوریتم های آن به طور کامل توضیح داده شده اند.

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

زمانی که corpus به ماتریس inner point distance تبدیل شد می توان از کلاسیفایر های ساده نزدیک ترین همسایه برای داده ها استفاده کرد. از آنجایی که ابعاد بالای موروثی ویژگی های اسناد، مانع از یک رویکرد ساده برای استفاده از درخت های دسته بندی مبتنی بر ویژگی می شوند می توان یا از رویکرد های دسته بندی دیگر استفاده کرد یا این درخت ها را در ترکیب با استراتژی های کاهش بعد به کار برد. در توسعه دسته بندی برای اسناد متنی چالش هایی وجود دارد مثلا یکی از این چالش ها برخورد با مترادف ها و کلمات چند معنی است. چالش دیگر ایجاد دسته بندی هایی است که بتواند مجوعه های بزرگ اسناد را دسته بندی کند. یا چالش دیگر دسته بندی منابع اسناد در حال استریم است. مانند اخبار که بصورت مداوم پخش می شوند. بد نیست اشاره کنیم که تکنیک های طبقه بندی بر خلاف خوشه بندی، تکنیک های با ناظر یا supervised هستند.

هدف از طبقه بندی متون نسبت دادن کلاسهای از پیش تعریف شده به اسناد متنی است. در طبقه بندی یک مجموعه آموزشی از اسناد، با کلاس های معین وجود دارد. با استفاده از این مجموعه، مدل طبقه بندی معین شده و کلاس سند جدید مشخص میگردد. برای اندازه گیری کارایی مدل طبقه بندی، یک مجموعه تست، مستقل از مجموعه آموزشی در نظر گرفته میشود. برچسبهای تخمین زده شده با برچسب واقعی اسناد مقایسه میشود. نسبت اسنادی که به درستی طبقه بندی شده اند به تعداد کل اسناد، دقت نامیده میشود. در ادامه برخی از تکنیک های کلاسیفایینگ یا طبقه بندی به اختصار معرفی می شوند:

درختهای تصمیم
برای ساختن این درختها از یک استراتژی تصمیم و غلبه استفاده میشود.
درخت تصمیم متوالی بر پایه طبقه بندی
در این مدل هر یک از گره های داخلی به عنوان تصمیم گیرنده و هر یک از برگها به عنوان یک برچسب کلاس می باشند. این مدل از دو مرحله تشکیل شده است: ۱ القای درخت- که از مجموعه آموزشی داده شده القا می شود.۲- هرس درخت- درخت القا شده را با از بین بردن هر وابستگی آماری روی مجموعه داده آموزشی خاص، کوتاه تر و قوی تر میکند.

روش Hunt
ساخت درخت به صورت بازگشتی و با استفاده از راهبرد حریصانه تقسیم و حل اول عمق میباشد.

الگوریتم C4.5
مراحل کلی الگوریتم C4.5 برای ساخت درخت تصمیم :
۱) انتخاب ویژگی برای گره ریشه
۲) ایجاد شاخه برای هر مقدار از آن ویژگی
۳) تقسیم موارد با توجه به شاخه ها
۴)تکرار روند برای هر شاخه تا زمانی که تمام موارد شاخه، کلاس یکسان داشته باشند.
انتخاب هر ویژگی به عنوان ریشه بر پایه بالاترین حصول از هر صفت است.

الگوریتم

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

SPRINT

SPRINT یک درخت تصمیم طبقه بندی کننده سریع و مقیاس پذیر است. این الگوریتم مجموعه داده آموزشی را به صورت بازگشتی با استفاده از تکنیک حریصانه اول به پهنا تقسیم میکند تا وقتی که هر قسمت متعلق به گره برگ یا کلاس یکسان باشد. این روش، از مرتب سازی داده ها استفاده میکند و محدودیتی برای حجم داده ورودی نداشته و میتواند بر روی الگوهای سریال یا موازی برای جایگزینی داده های خوب و با توازن بار اجرا شود. دو ساختار داده ای را به کار می گیرد: لیست داده ها و پیشینه نما، که مقیم در حافظه نیستند و این مسئله SPRINT را برای مجموعه داده های بزرگ مناسب می سازد. بنابراین همه محدودیتهای حافظه بر داده ها را حذف می کند. این الگوریتم صفت های پیوسته و طبقه ای را به کار میبرد.

فرمول بندی موازی از درخت تصمیم بر پایه طبقه بندی
هدف این روش مقیاس پذیری در زمان اجرا و حافظه مورد نیاز است. فرمول بندی موازی برمحدودیت حافظه که برای الگوریتم های ترتیبی مشکل ساز است غلبه می کند، بدین صورت رسیدگی به مجموعه داده های بزرگ تر بدون نیاز به دیسک I/O افزونه را ممکن میسازد. همچنین فرمول بندی موازی سرعت بالاتری نسبت به الگوریتم سریال ارائه میکند. انواع فرمول بندی های موازی برای ساخت درخت تصمیم طبقه بندی:
رویکرد ساخت درخت همزمان
رویکرد ساخت درخت قسمت بندی شده
فرموله بندی موازی ترکیبی
طبقه بندی کننده ساده بیزی
یک روش طبقه بندی احتمالی است. کلاس یک سند متناسب با کلماتی است که در یک سند ظاهر شده اند.

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

نزدیکترین همسایه K طبقه بندی کننده
راه دیگر این است که اسنادی از مجموعه آموزش انتخاب شوند که مشابه سند جاری هستند. کلاس سند جاری، کلاسی است که اکثریت اسناد مشابه، دارند. در این روش K تا سند از مجموعه آموزش که بیشترین شباهت (بر اساس معیار شباهت تعریف شده) را به سند جاری دارند به عنوان همسایگان آن سند انتخاب می شوند. این طبقه بندی به سه مورد اطلاعاتی نیاز دارد: ۱ مقدار K 2) مجموعه ای از داده های برچسب دار، که به عنوان داده های آموزشی مورد استفاده قرار گیرند و ۳) یک معیار شباهت.
یک روش ساده برای معیار شباهت شماردن تعداد کلمات مشترک در دو سند است. این روش باید برای اسناد با طول مختلف نرمال سازی شود. یک روش استاندارد برای اندازه گیری شباهت، شباهت کسینوسی است.

شبکه های عصبی

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

در مسائل مربوط به طبقه بندی، شبکه عصبی با داشتن ورودی ها و خروجیهای مشخص باید تشخیص دهد که هر ورودی با کدام طبقه از خروجی های تعریف شده بیشترین تطابق را دارد . در شبکه پرسپترون چند لایه از روش آموزش با نظارت استفاده می شود. هدف از آموزش شبکه به حداقل رساندن خطای تولید شده میباشد که براساس تنظیم وزنهای شبکه انجام میشود. معمولا از الگوریتم آموزش پس انتشار استفاده میشود. در این الگوریتم پس از محاسبه مقدار خطا در لایه خروجی مقادیر وزنها در لایه پنهان در جهت کاهش خطا تنظیم میشوند.
استفاده از شبکه های عصبی مزایا و معایبی دارند که مزایای آن به اختصار عبارتند از
روش های خود تطبیقی برای مبنای داده هستند. میتوانند هر تابعی را با دقت دلخواه تخمین بزند. مدلهای غیر خطی هستند. با دادههای ناقص یا گم شده به خوبی کار میکنند.
و معایب شبکه های عصبی عبارتند از: برآورد یا پیش بینی خطا انجام نمیشود. چگونگی برآورد شدن روابط میان لایه های پنهان را نمی توان معین کرد.

(SVM) ماشین بردار پشتیبانی
الگوریتم طبقه بندی یا دسته بندی مشاین بردار پشتیبان که از روش های یادگیری با نظارت استفاده می کند که در مقاله دیگری به طور کامل در مورد این روش توضیح داده شده است.

ژنتیک

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

یک روش بهینه سازی اکتشافی است که از قوانین تکامل بیولوژیک طبیعی تقلید میکند. الگوریتم ژنتیک قوانین را بر روی جواب های مسأله (کروموزومها)، برای رسیدن به جوابهای بهتر، اعمال میکند. در هر نسل به کمک فرآیند انتخابی متناسب با ارزش جوا بها و تولید مثل جواب های انتخاب شده و به کمک عملگرهایی که از ژنتیک طبیعی تقلید شده اند، تقریب های بهتری از جواب نهایی بدست میآید. این فرایند باعث میشود که نسلهای جدید با شرایط مساله سازگارتر باشند. به منظور حل هر مسئله، ابتدا باید یک تابع برازندگی برای آن ابداع شود. این تابع برای هر کروموزوم، عددی را بر می گرداند که نشان دهنده شایستگی آن کروموزوم است. در طی مرحله تولید نسل ازعملگرهای ژنتیکی استفاده می شود که با تأثیر آنها بر روی یک جمعیت، نسل بعدی تولید میشود. عملگرهای انتخاب، آمیزش و جهش معمولاً بیشترین کاربرد را در الگوریتم های ژنتیکی دارند . تعدادی شروط خاتمه برای الگوریتم ژنتیک وجود دارد از جمله: تعداد مشخصی نسل، عدم بهبود در بهترین شایستگی جمعیت در طی چند نسل متوالی و عدم تغییر بهترین شایستگی جمعیت تا یک زمان خاص.
در اکثر مواقع طبقه بندی کننده های SVM و K نزدیک ترین همسایه کارآیی بالایی را ارائه میکنند و پس از آن ها شبکه عصبی، درخت های تصمیم و روش ساده بیزی قرار گرفته اند.

:: موضوعات مرتبط: newdatamining1 , ,
:: بازدید از این مطلب : 187

|

امتیاز مطلب : 0

|

تعداد امتیازدهندگان : 0

|

مجموع امتیاز : 0

تاریخ انتشار : پنج شنبه 19 مرداد 1396 | نظرات ()

مطالب مرتبط با این پست

لیست

» انجام پایان نامه مهندسی کامپیوتر
» بررسی روش‌های گردش عملیات امکان‌سنجی استقرار سیستم‌ها و روش‌های بهینه و ..... در قالب تجزیه و تح
» برچسب زنی اجزای سخن
» ابزارها متن کاوی و تحلیل متن
» انجام پروژه های داده کاوی با رپیدماینر و وکا
» انجام پایان نامه داده کاوی
» Data Type و Content Type در داده کاوی
» تشخیص حالت احساسی نویسنده متن
» گروه‌های دوستان در شبکه‌ی اجتماعی برای نیاز به تعری
» دسته بندی متون یا طبقه بندی (classifying)

می توانید دیدگاه خود را بنویسید

نمایش کلیه نظرات

نرم افزا وکا

,webmining

textmining(متن کاوی)

نرم افزار clementine

نرم فزار rapid miner

clustering(خوشه بندی)

داده های آماری

spss

spss mode;er

پردازش تصویر

داده کاوی

هوش تجاری

newdatamining

newdatamining1

rapidminer-R-weka-python

rapidminer-R-weka-python -clementine

weka-python -clementin-matlab

-python -clementin-matlab

rapidminer-R-weka-python -clementine (new

statics1

statics2

statics3

statics4

statics5

1111111

1111111

222222222

new data mine

انجام پروژه های Data Mining با برنامه نویسی اس پی اس اس SPSS

انجام پروژه های داده کاوی با پایتون با کیفیت عالی

پروژه داده کاوی R

انجام پروژه داده کاوی R

دسته بندی متون

انجام پروژه پردازش زبان طبیعی NLP

انجام پروژه های متن کاوی

انجام پروژه های پردازش زبان طبیعی

انجام پروژه های وکا

انجام پروژه های spss ، سفارش پروژه spss

انجام پروژه های داده کاوی

دانلود پروژه آماده داده کاوی با نرم افزار وکا(weka)

پروژه های شبیه سازی شده با WEKA

فارش انجام پروژه داده کاوی با وکا(weka)

آموزش و انجام پروژه های داده کاوی با نرم افزارهای rappidminer وکا و کلمنتاین

پروژه های داده کاوی با نرم افزار Clementone12

انجام پروژه داده کاوی Data Mining weka orange spss rapidminer

وضوعات:ر, انجام پروژه رپیدماینر, وکا, متلب, پروژه داده کاوی با متلب

انجام پروژه های داده کاوی با نرم افزار وکا weka

حمل خرده بار از چین [ ]

حمل و سفارش از چین به ایران [ ]

فروش جلو پنجره لیفان [ ]

الوقلیون [ ]

لیست تمام پیوند ها

انجام پروژه های آماری+رسم نمودار با نرم افزار Minitab- SPSS

تجزیه و تحلیل آماری داده های پایان نامه ها

وب کاوی چیست

پروژه داده کاوی

فرآیند داده کاوی در IBM SPSS Modeler تحلیل آماری در IBM SPSS Statistics

پروژه داده ها گاوی datamining

دیتا پرداز- داده کاوی اطلاعات اقتصادی

Rapidminer نرم افزار

انجام پروژه های داده کاوی با رپیدماینر و وکا

انجام پایان نامه داده کاوی

اندازه های تکراری (Repeated Measures) [ 1355 ]

آموزش نرم افزار کلمنتاین Clementine 12 [ 736 ]

کاربرد داده کاوی در مخابرات [ 665 ]

ابزارهای داده کاوی [ 661 ]

آزمون همبستگی (correlation test) [ 622 ]

آزمون ویلکاکسون (wilcoxon) [ 602 ]

انجام پروژه های داده کاوی با نرم افزار SPSS Modeler 14.2 [ 595 ]

آموزش وکا [ 591 ]

انجام پروژه های داده کاوی با نرم افزار رپید ماینر rapidminer [ 516 ]

روش های کشف تقلب در استفاده از کارتهای اعتباری [ 512 ]


	نام :
	وب :
	پیام :
	2+2=:


(Refresh)

Powered By
LoxBlog.Com

متن دلخواه شما

تمام حقوق اين وب سايت و مطالب آن متعلق به انجام پروژه های داه کاوی مي باشد .
كد نويسي و گرافيك قالب توسط : تم ديزاينر